Model Selection

Vision Transformer Architecture

# Vision Transformer Architecture

Sapiens Seg 0.6b

Sapiens is a family of Vision Transformer models pre-trained on 300 million 1024x1024 resolution human images, focusing on human-centric vision tasks.

Image Segmentation English

Best Model ViTB16 GPT2

A cross-modal model based on Vision Transformer (ViT) and GPT-2, capable of generating natural language descriptions for input images

Transformers Supports Multiple Languages

Dog Breeds Multiclass Image Classification With Vit

A dog breed classification model fine-tuned using Google's Vision Transformer architecture, supporting image recognition of 120 dog breeds

Image Classification

Big Cat Classifier

An image classifier based on Vision Transformers that accurately identifies five species of big cats.

Image Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase